Découvrir les thèmes d'un document pour en améliorer la segmentation thématique
نویسنده
چکیده
La segmentation thématique et l’identification des thèmes d’un document sont souvent traitées comme des problèmes séparés, même si elles relèvent toutes deux de l’analyse thématique. Dans cet article, nous proposons d’examiner comment l’identification thématique peut contribuer à améliorer la segmentation de documents lorsque celle-ci ne s’appuie que sur la récurrence lexicale. Nous présentons d’abord une méthode non supervisée de découverte des thèmes d’un document ; puis nous détaillons comment ces thèmes sont utilisés dans la segmentation pour aider à reconnaître les similarités thématiques entre des segments de documents. Nous montrons enfin, au travers d’une évaluation faite à la fois pour le français et pour l’anglais, l’intérêt effectif de la méthode proposée.
منابع مشابه
Étude Comparative des Algorithmes de Segmentation Thématique Pour la Langue Arabe
Résumé. Le besoin d'avoir un système de segmentation thématique des textes arabesa pour but d’améliorer les fonctionnalités de la Recherche d'Information Arabe (RIA). La segmentation thématique des textes a été utilisée pour améliorer la précision des processus subséquents telle que les systèmes de résumé automatique, les systèmes de Question/Réponses et les systèmes de recherche d’information....
متن کاملApproches endogène et exogène pour améliorer la segmentation thématique de documents
Topic segmentation was addressed by a large amount of work from which it is not easy to draw conclusions, especially about the need for knowledge. In this article, we propose in the same framework two methods for improving the results of a topic segmenter based on lexical reiteration. The first one is endogenous and exploits the distributional similarity of the words of a document for discoveri...
متن کاملUn outil de détection automatique de thèmes
Vu la quantité de documents numériques disponible sur le Web et la nécessité de mettre au point des techniques de recherche efficaces, les systèmes de recherche d'information font de plus en plus appel aux techniques de Traitement Automatique des Langues (TAL) qui exploitent les informations syntaxiques ou sémantiques, dans le but d’améliorer la qualité des résultats fournis par les moteurs de ...
متن کاملSegmentation en locuteurs d'un document audio
R esum e: Dans cet article, nous abordons le probl eme de la segmentation en locuteurs. Le but est d'obtenir des segments de locuteurs homog enes, c'esta-dire ne contenant les paroles que d'un seul et même locuteur. Ces segments doivent être les plus longs possible. Dans notre etude, nous faisons les hypoth eses qu'aucune connaissance a priori sur les locuteurs n'est disponible et que les perso...
متن کاملWeb Content Data Mining : la classification croisée pour l'analyse textuelle d'un site Web
Résumé. Notre objectif dans cet article est lanalyse textuelle dun site Web indépendamment de son usage. Notre approche se déroule en trois étapes. La première étape consiste au typage des pages afin de distinguer les pages de navigation ou pages « auxiliaires » des pages de contenu. La deuxième étape consiste au prétraitement du contenu des pages de contenu afin de représenter chaque page pa...
متن کامل